关于组合优化的机器学习的最新作品表明,基于学习的方法可以优于速度和性能方面的启发式方法。在本文中,我们考虑了在定向的无环图上找到最佳拓扑顺序的问题,重点是编译器中出现的记忆最小化问题。我们提出了一种基于端到端的机器学习方法,用于使用编码器框架,用于拓扑排序。我们的编码器是一种基于注意力的新图形神经网络体系结构,称为\ emph {topoformer},它使用DAG的不同拓扑转换来传递消息。由编码器产生的节点嵌入被转换为节点优先级,解码器使用这些嵌入,以生成概率分布对拓扑顺序。我们在称为分层图的合成生成图的数据集上训练我们的模型。我们表明,我们的模型的表现优于或在PAR上,具有多个拓扑排序基线,同时在最多2K节点的合成图上明显更快。我们还在一组现实世界计算图上训练和测试我们的模型,显示了性能的改进。
translated by 谷歌翻译
我们提出了一种新型的机器学习方法,用于从晶格量子场理论的高维概率分布中取样。我们的建议不是迄今为止用于此任务的深层体系结构,而是基于单个神经效果层,并结合了问题的完整对称性。我们在$ \ phi^4 $理论上测试了我们的模型,这表明它系统地优于先前提出的采样效率基于流动的方法,并且对于较大的晶格而言,改进尤其明显。与以前的基线模型相比,我们将关键指标(有效样本量)提高了,从1%到91%,尺寸为$ 32 \ times 32 $。我们还证明,我们的模型可以成功学习一个连续的理论家庭,并且可以将学习结果转移到更大的晶格中。与传统的基于MCMC的方法相比,这种概括能力进一步突出了机器学习方法的潜在优势。
translated by 谷歌翻译
我们提出了一种连续的标准化流量,用于从物理学中量子域理论的高尺寸概率分布采样。与迄今为止此任务的深度架构相比,我们的提案基于浅设计并包含问题的对称性。我们在$ \ PHI ^ 4 $理论上测试我们的模型,表明它系统地优于采样效率的REALNV基准,其两个增加对于较大格子的差异。在我们考虑的最大格子上,大小为32美元,我们改善了一个关键的公制,有效的样本量,从1%到66%w.r.t.Realnvp基线。
translated by 谷歌翻译
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
translated by 谷歌翻译
尽管社交媒体中的Echo Chambers受到了相当大的审查,但仍缺少用于检测和分析的一般模型。在这项工作中,我们旨在通过提出一个概率的生成模型来填补这一空白,该模型通过一系列具有一定程度的回声室行为来解释社交媒体足迹(即社交网络结构和信息传播)。并以极性。具体而言,回声室被建模为可渗透到具有相似意识形态极性的信息的社区,并且对相反的倾向信息不渗透:这允许将回声室与缺乏明确意识形态保持一致的社区区分。为了了解模型参数,我们提出了对广义期望最大化算法的可扩展的随机适应,该算法优化了观察社会联系和信息传播的关节可能性。合成数据的实验表明,我们的算法能够及其具有回声室行为和意见极性的程度正确地重建地面真相社区。关于两极分化社会和政治辩论的现实数据的实验,例如英国脱欧公投或COVID-19疫苗运动,证实了我们提议在检测回声室方面的有效性。最后,我们展示了我们的模型如何提高辅助预测任务的准确性,例如立场检测和未来传播的预测。
translated by 谷歌翻译
最近,增强学习方法(RL)在NP-HARD组合优化问题上的应用已成为一个流行的话题。这本质上是由于传统组合算法的性质,通常是基于试验过程。 RL旨在自动化此过程。在这方面,本文着重于RL在车辆路由问题(VRP)中的应用,这是属于NP-HARD问题的著名组合问题。首先,在这项工作中,该问题被建模为马尔可夫决策过程(MDP),然后应用PPO方法(属于Actor-Critic-Critic cornforcion学习方法类别)。在第二阶段,已经建立了演员和评论家背后的神经建筑,选择采用基于卷积神经网络的神经建筑,包括演员和评论家。这种选择有效地解决了不同大小的问题。在各种实例上进行的实验表明该算法具有良好的概括能力,并且可以在短时间内达到良好的解决方案。提出的算法与最先进的求解器或最先进的求解器之间的比较表明,后者仍然优于强化学习算法。但是,有一些未来的研究观点,旨在升级提出的算法的当前性能。
translated by 谷歌翻译
这项工作描述了Push,这是一种原始的启发式,结合了可行性泵和转移。主要思想是通过适当的转移和其他圆形启发式方法来代替可行性泵的圆形阶段。该算法提出了不同的策略,具体取决于获得的部分舍入的性质。特别是,我们区分何时可行的部分解决方案,与潜在候选者不可行,而没有候选者不可行。我们使用阈值指示使用算法将变量的百分比,以及将其四舍五入到最近的整数中。最重要的是,我们的算法直接处理平等约束而无需复制行。我们在为2022的MIP竞赛中选择了算法的参数。最后,我们将我们的方法与其他开始启发式方法进行了比较,例如第一个800 MIPLIB2017实例在数量下订购的简单圆形,圆形,舍入和可行性泵非零件。
translated by 谷歌翻译
主动推断是源自计算神经科学的数学框架。最近,它被证明是在机器人技术中构建目标驱动行为的一种有前途的方法。具体而言,主动推理控制器(AIC)在多个连续控制和国家估计任务方面取得了成功。尽管取得了相对成功,但一些建立的设计选择导致了机器人控制的许多实际限制。这些包括对国家的偏见估计,以及仅是控制动作的隐式模型。在本文中,我们强调了这些局限性,并提出了无偏见的活动推理控制器(U-AIC)的扩展版本。U-AIC保持AIC的所有引人注目的好处,并消除其局限性。在2多臂臂上的仿真结果和对真正的7-DOF操纵器的实验表明,相对于标准AIC,U-AIC的性能提高了。该代码可以在https://github.com/cpezzato/unbiased_aic上找到。
translated by 谷歌翻译
最近显示外部眼睛照片显示出糖尿病性视网膜疾病和HBA1C升高的迹象。在本文中,我们评估外部眼睛照片是否包含有关其他系统性医疗状况的信息。我们开发了一个深度学习系统(DLS),该系统将外部眼睛的照片作为输入,并预测多个全身参数,例如与肝脏有关的参数(白蛋白,AST);肾脏(EGFR使用无种族的2021 CKD-EPI肌酐方程,尿液ACR);骨与矿物质(钙);甲状腺(TSH);和血数(HGB,WBC,血小板)。开发利用了49,015例糖尿病患者的151,237张图像,在加利福尼亚州洛杉矶县的11个地点接受糖尿病眼镜筛查。评估重点是9个预先指定的全身参数,并利用了3个验证集(a,b,c),涵盖了28,869名患有和没有糖尿病的患者,在加利福尼亚州洛杉矶县和大亚特兰大地区的3个独立地点进行了眼睛筛查。我们将结合了可用临床人口统计学变量的基线模型(例如年龄,性别,种族/种族,糖尿病年)进行了比较。相对于基线,DLS在检测AST> 36,钙<8.6,egfr <60,HGB <11,血小板<150,ACR> = 300和WBC <4时,在检测AST> 36,钙<8.6,Egfr <60,HGB <60,HGB <60,calcium <8.6,Egfr <60,calcium <8.6和wbc <4时,达到了统计学上的显着性能,并且类似于开发集的人口),其中DLS的AUC超过基线的AUC,增长了5.2-19.4%。在验证集B和C方面,与开发集相比,患者人群的差异很大,DLS的表现优于ACR> = 300的基线,而HGB <11升至7.3-13.2%。我们的发现提供了进一步的证据,表明外部眼睛照片包含跨越多器官系统的全身健康生物标志物。需要进一步的工作来研究这些生物标志物是否以及如何转化为临床影响。
translated by 谷歌翻译
医疗人工智能(AI)的最新进展已提供了可以达到临床专家水平绩效的系统。但是,当在与训练环境不同的临床环境中评估时,这种系统往往会证明次优的“分布式”性能。一种常见的缓解策略是使用特定地点数据为每个临床环境开发单独的系统[1]。但是,这很快变得不切实际,因为医疗数据很耗时,可以注释且昂贵[2]。因此,“数据有效概括”的问题给医学AI开发带来了持续的困难。尽管代表性学习的进展显示出希望,但并未对其好处进行严格的研究,特别是用于分布的设置。为了应对这些挑战,我们提出了RESEDIS,这是一种统一的代表学习策略,以提高医学成像AI的鲁棒性和数据效率。雷雷迪斯使用大规模监督转移学习与自我监督学习的通用组合,几乎不需要特定于任务的自定义。我们研究各种医学成像任务,并使用回顾性数据模拟三个现实的应用程序场景。 RESEDIS表现出明显改善的分布性能,而在强有力的基线上,诊断准确性相对相对提高了11.5%。更重要的是,我们的策略会导致对医学成像AI的强大数据有效的概括,并使用跨任务的1%至33%的重新培训数据匹配强有力的监督基线。这些结果表明,Repedis可以显着加速医学成像AI开发的生命周期,从而为医学成像AI提供了重要的一步,以产生广泛的影响。
translated by 谷歌翻译